α (alpha) : le pas d'apprentissage

Définition : C'est un petit nombre positif (par exemple 0.01, 0.001, 0.1) qui contrôle la taille des pas que fait l'algorithme.

Rôle : Il multiplie le gradient pour déterminer combien on bouge.

- α grand (0.1, 0.5) : L'algorithme fait de grands pas → converge vite MAIS risque d'osciller ou diverger
- α petit (0.001, 0.0001) : L'algorithme fait de petits pas → converge lentement MAIS de manière stable

Analogie : Si vous cherchez une maison, α c'est la longueur de vos enjambées. Trop grand = vous risquez de dépasser la maison. Trop petit = vous mettez des heures à arriver.

 γ (gamma) : le coefficient de momentum

Définition : C'est un nombre entre 0 et 1 (typiquement 0.8, 0.9, 0.95) qui contrôle combien de mémoire on garde.

Rôle : Il multiplie la vitesse précédente pour décider combien on en conserve.

- γ = 0 : Aucune mémoire → c'est la descente de gradient classique
- γ = 1 : Mémoire infinie → la vitesse ne diminue jamais (instable)
- γ = 0.9 : On garde 90% de la vitesse précédente → bon compromis

Analogie : γ c'est votre inertie. Avec γ proche de 1, vous avez du mal à vous arrêter ou changer de direction (beaucoup d'élan). Avec γ proche de 0, vous vous arrêtez facilement (peu d'élan).

 Leur rôle dans la formule

vₖ₊₁ = γ·vₖ - α·∇f(θₖ)

- γ·vₖ : portion de l'ancien mouvement qu'on conserve (mémoire)
- α·∇f(θₖ) : influence du gradient actuel (nouvelle information)

L'algorithme combine les deux : il garde une partie du mouvement passé ET tient compte de la nouvelle direction indiquée par le gradient.

 Valeurs typiques à utiliser

Pour commencer votre implémentation :

```R
alpha <- 0.01   # Pas d'apprentissage
gamma <- 0.9    # Coefficient de momentum
```

Ensuite, vous ajusterez ces valeurs selon les résultats :
- Si ça oscille → diminuer α
- Si c'est trop lent → augmenter α
- Si ça se coince dans des minima locaux → augmenter γ
- Si ça oscille beaucoup → diminuer γ